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摘要 : [ 目的/ 意义] 大 规模 在 线 开 放 课 程 论 坛 具有 丰富 的 用 户 评论 数据 。 从 大 量 未 区 分 的 评论 数据 中 ，, 自 
动 识别 出 知识 密度 较 高 的 探索 型 对 话 并 挖掘 其 潜在 价值 ,对 于 改善 教师 教学 质量 以 及 提高 学 生 知识 水 平 具 有 
重要 影响 。 [ 方法/ 过程] 首先 利用 GloVe 方法 训练 词 向 量 ,加 强 对 文本 语义 的 理解 ,然后 利用 卷 积 神经 网 络 自 
动 学 习 文 本 特征 ,提出 一 种 基于 深度 学 习 的 探索 型 对 话 自动 识别 模型 ,并 在 学 堂 在 线 平台 《心理 学 概论 ) 课 程 论 
坛 标注 数据 集 上 进行 实证 与 对 比 研究 。[ 结果 /结论 ] 实验 结果 显示 ,利用 GloVe 方法 预 训练 词 向 量 以 及 在 训练 
过 程 中 不 断 对 词 向 量 进行 学 习 修 正 能 够 提高 模型 效果 。 该 模型 识别 探索 型 对 话 的 Fl 值 为 0.94, 相 较 于 传统 的 
LE 叶 斯 方法 (0.88)、 逻 辑 斯 谤 回归 方法 (0.89)、 决 策 树 方法 (0. 88) 以 及 随机 森林 方法 (0.88) 取 得 较 大 提 
角 ) 具 有 较 高 的 实用 性 和 较 低 的 学 习 成 本 。 
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© 分 类 号 : G251 
OO DOI:10. 13266/j. issn. 0252 -3116. 2019. 05.011 


方式 ,探索 型 对 话 是 一 种 参与 者 利用 语言 进行 共同 推 


,以 合 理 平 等 的 方式 分 享 知识 . 挑 达 观点 ,评估 证 据 、 
et 由 知识。 考察 备 选 访 案 并 最 终 达 成 共识 的 对 话 形式 。 在 MOOC 
oe me ee tant pedis 论坛 中 ,能 够 帮助 用 户 将 大 脑 中 的 隐 性 知识 编码 为 显 
Ve We 性 知识 的 探索 型 对 话 对 于 构建 良好 的 虚拟 社区 生态 环 
推动 知识 共享 等 具有 重要 作用 ,因此 以 探索 型 
在 为 一 种 下 教育 合理 的 战略 半 坟 和 和 二 困 晤 。。 对话 为 依托 来 改善 MOOC 的 教育 质量 具有 现实 意义 。 
y 帮 资源 分 配 政策 识别 rd 
析 >> | 兴 玫 且 才 育 工作 者 确 定 才 育 痪 源 分 本 政策 ,识别 坛 积累 了 大 量 内 容 相对 集中 的 文本 对 话 ,但 是 其 中 大 
有 错字 候 巾 的 全 、 汪 强攻 字 过程 于 巴 写 。。 近 年 。 部 分 是 以 结交 朋友 ,询问 考试 时 间 询问 作业 能 否 延 期 
5 过 征程 aya 三 月 参 态 光村 上 
”提交 等 为 主要 内 容 的 课程 知识 密度 合 量 绞 低 的 非 乏 过 
型 对 话 ,对 于 提高 教育 质量 影响 较 小 。 主 流 MOOC 平 
也 联网 为 基础 , 守 生 傅 5 守 习 可 以 不 朗 时 空 上 的 限制 ，。 名 普遍 未 对 探索 型 对 话 和 非 探索 型 对 话 加 以 区 分 ,从 
但 这 也 使 得 参与 者 无 法 像 传统 澡堂 一 样 进行 面对面 的 。 而 导致 数量 相对 较 少 且 发 布 时 间 分 散 的 探索 型 对 话 海 
交流 ,因此 课堂 参与 考 的 主要 对 话 形式 变 为 MO0C 论 。 没 二 估量 非 吉 索 草 对话 当中 难以 甩 效 发 近 其 在 
oo MOOC 课程 中 帮助 改善 教育 教学 的 作用 。 虽 然 绝 大 多 
数论 坛 都 具备 检索 功能 ,但 是 教师 和 学 生 利用 检索 的 
的 本 质 ”。 作 为 课堂 中 具有 大 量 知识 产 出 的 高 效 对 话 
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广 | -。， -~N\。 人 人 /三 廿 口 工 上 
ALnInaxJV 记 人 FE 品 有 十 | 
董 庆 兴 ,， 李 华 阳 ， 章 高 逻 ， 等 . 基于 深度 学 习 的 MOOC 论坛 探索 型 对 话 识 别 方法 研究 [J] . 图书 情 热 工 乔 0 中 635 守 :2 


方法 只 能 查找 到 符合 特定 关键 词 的 对 话 ,无 法 像 识别 
探索 型 对 话 一 样 在 论坛 中 对 所 有 探索 型 对 话 进 行 聚 
合 , 不 利于 学 生 的 参与 和 教师 管理 。 而 识别 探索 型 对 
话 ,有 利于 论坛 参与 者 发 现 探索 型 对 话 并 积极 响应 。 
在 这 一 过 程 中 ,教师 可 以 对 学 习 者 加 以 引导 ,激发 他 们 
深入 思考 ,从 而 在 交流 过 程 中 获得 更 多 的 知识 。 

识别 探索 型 对 话 的 方法 主要 包括 人 工 标注 和 自动 


种 方法 抽取 的 特征 对 分 类 器 性 能 的 影响 ,结果 发 现在 
特征 维 数 相 同时 ,利用 tidf 方法 抽取 特征 训练 的 分 类 
器 明显 优 于 其 他 方法 。 针 对 信息 增益 算法 试用 范围 较 
广 ,但 是 精度 较 低 的 问题 , 夏 火 松 等 提出 一 种 基于 
领域 词典 结合 评论 长 度 特征 提取 方法 ,该 方法 改进 了 
普通 领域 词典 建立 耗 时 长 的 问题 ,并 且 结 合 评论 长 度 
解决 了 词典 难以 跨 领 域 的 问题 。 为 了 更 好 地 筛选 特 


识别 两 种 ,人 工 标注 的 方法 虽然 准确 率 较 高 但 是 随 着 
用 户 量 的 增加 和 论坛 规模 的 扩大 ,这 种 费时 费力 的 管 
理 方法 会 加 重 论坛 管理 者 的 负担 ,已 经 不 再 适用 于 大 
规模 论坛 。 许 多 传统 的 基于 文本 分 类 的 探索 型 对 话 自 
动 识别 方法 由 于 理解 语义 以 及 学 习 特 征 的 能 力 不 足 在 
最 终 的 识别 准确 率 上 表现 较 差 ,因此 本 文 针 对 性 的 利 
打 6loVe 词 向 量 … 加 强 语 义理 解 能 力 , 以 及 利用 模型 
学 河 能 力 较 强 的 卷 积 神经 网 络 !21( Convolutional neural 
netiorks ,CNN) 来 共同 提高 探索 型 对 话 识别 的 准确 性 ， 
以 便 将 来 在 真实 场景 中 更 好 地 对 探索 型 对 话 进行 深入 


2 ”相关 研究 回顾 


CV 文本 分 类 作为 信息 科学 领域 的 一 个 经 典 课题 ,学 
卷 们 已 经 开展 了 一 系 列 面向 不 同 具体 任务 的 方法 研 
珀 昌 ,尤其 在 词语 表示 以 及 特征 工程 上 进行 了 大 量 控 
索 全 在 词语 编码 方面 ,大 多 数 的 文本 分 类 研究 利用 
RC 维 的 向 量 空间 模型 (Vector space model, VSM) 
对 党 语 进行 表示 ,其 中 1Y1 表 示 语 料 库 中 词典 的 大 小 ， 
向 量 空 间 中 的 每 一 维度 对 应 一 个 单词 。 根 据 单词 对 应 
维 故 的 特征 值 的 计算 方式 的 不 同 , 常 用 的 编码 方式 主 
要 有 ,One-hot .tf 以 及 引 iqf。One-hot 编码 的 表示 向 量 
中 ,每 一 维度 的 特征 值 均 属于 集合 10 ,1 ,如 M. Shaha- 
mi 等 "利用 One-hot 方法 对 邮件 中 的 单词 进行 编码 
时 ,1 表示 该 单词 在 邮件 中 出 现 ,0 表示 未 出 现 。 虽然 
One hot 方法 在 一 些 场景 下 表现 出 了 良好 的 效果 ,但 是 
却 忽略 了 文章 词语 之 间 的 差异 信息 ,因此 在 文本 分 类 
领域 经 常 利用 tf 或 者 tidf 算法 计算 单词 对 应 维度 的 
特征 值 “” ,在 一 定 程度 上 表征 单词 在 文本 中 的 不 同 
重要 程度 。 虽然 tf-idf 算法 在 信息 检索 和 自然 语言 处 
理 领域 得 到 了 广泛 应 用 ,仍然 有 研究 针对 tt-idf 存在 的 
类 区 分 能 力 不 足 等 问题 进行 后 续 改进 "7 。 


征 、 降 低 特征 维度 .控制 特征 稀 朴 性 , 杜 亚 楠 等” 引入 
了 一 种 基于 C 检验 的 特征 筛选 方法 ,使 用 该 方法 能 够 
获得 强 区 分 能 力 的 特征 。 通 过 抽取 字符 特征 、 词 汇 特 
征 \ 句 法 特征 和 文本 布局 特征 等 , 祁 瑞 华 等 ”构建 的 
多 层面 的 文体 风格 特征 模型 能 够 较 好 地 适应 短文 本 ， 
具有 较 高 的 鲁 棱 性 ,在 博客 作者 识别 任务 上 取得 了 出 
色 的 效果 。 考 虑 到 语言 网 络 也 是 一 种 典型 的 复杂 网 
络 , 李 晓 军 等 ”运用 复杂 网 络 中 的 研究 方法 构建 文本 
网 络 , 引 入 词语 之 间 的 最 短路 径 等 网 络 特征 来 提高 作 
者 身份 识别 的 准确 率 。 

虽然 上 述 研 究 在 具体 任务 中 都 取得 了 不 错 的 效 
果 , 但 是 还 存在 一 些 值得 改进 之 处 :首先 ,在 R"“ 维 的 
向 量 空间 模型 中 ,所 有 单词 的 表示 癌 量 都 相互 正 交 , 词 
与 词 之 间 的 关系 难以 衡量 ,对 语义 的 理解 较 差 ” 。 此 
外 ,向 量 维度 会 随 着 语料库 中 单词 的 数量 增加 而 增加 ， 
当 语 料 过 多 时 会 导致 维度 爆炸 ” 。 不 同 于 之 前 的 向 
量 空间 模型 的 编码 方式 , 词 向 量 的 主要 思想 则 是 利用 
语言 学 信息 在 低 维 子 空 间 中 学 习 出 一 种 对 词语 语义 有 
较 好 理解 的 表示 向 量 , 且 表征 向 量 的 维度 不 会 随 着 词 
典 大 小 的 增加 而 变化 。 因 此 ,利用 词 向 量 有 助 于 解决 
传统 编码 方法 语义 表达 能 力 不 足以 及 维度 灾难 的 问 
题 。 此 外 ,许多 文本 分 类 模型 的 学 习 能 力 较 弱 ,往往 需 
要 人 为 构造 复杂 的 特征 才能 达到 较 好 的 效果 。 而 深度 
学 习 方 法 “能 够 自动 学 习 数据 中 的 特征 ,尤其 是 已 经 
在 很 多 自然 语言 处 理 ( Natural Language Processing， 
NLP) 任 务 中 取得 了 很 好 效果 “ ”的 卷 积 神经 网 络 能 
够 利用 卷 积 核 学 习 词 组 片段 更 抽象 的 表示 ,从 而 捕捉 
文本 中 更 深层 次 的 特征 ,使 得 模型 在 不 需要 复杂 的 特 
征 工程 的 情况 下 取得 出 色 效 果 。 


3 ”探索 型 对 话 自动 识别 模型 
本 文 主要 从 语义 编码 以 及 特征 学 习 上 进行 改进 ， 


在 传统 文本 分 类 研究 领域 中 ,为 了 提高 特定 场景 
下 的 文本 分 类 效果 ,通常 需要 结合 大 量 特征 工程 的 广 
法 。 为 了 提高 先秦 诸 子 典籍 的 自动 分 类 效果 , 王 东 波 
等 站 分 别 对 比 了 tfjidf .信息 增益 .互信 息 和 卡 方 分 布 4 


首先 利用 GloVe 模型 预 训练 词 向 量 ,在 连续 的 低 维 空 
间 对 词语 进行 编码 加 强 对 词语 语义 的 理解 ,然后 利用 
能 够 自动 学 习 文本 深层 次 特征 的 卷 积 神经 网 络 自 动 识 
别 探索 型 对 话 ,以 解决 MOOC 论坛 场景 下 传统 文本 分 
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类 方法 在 语义 学 习 和 特征 学 习 方 面 能 力 不 足 的 问题 。 
3.1 GloVe 词 向 量 模 型 

宏观 上 看 主要 有 两 类 不 同 的 词 向 量 模型 :第 一 类 
模型 主要 依赖 矩阵 分 解 ” ,此 类 模型 能 够 有 效 利 用 单 
词 共 现 来 捕 提 单词 之 间 的 相似 度 ,但 是 在 同义词 类 比 
第 二 类 模型 主要 基于 浅 层 窗 
2 ,利用 Skip-gram 或 CBOW 等 模型 ”学 习 语 料 
的 语言 学 模式 ,但 是 这 类 模型 并 没有 利用 全 局 
统计 信息 。 而 GloVe 词 向 量 利 用 加 权 平 均 损 失 模 型 在 
单词 共 现 矩阵 上 进行 训练 ,能 够 更 好 地 利用 全 局 统计 
信息 , 相 比 于 其 他 词 向 量 方法 在 词语 相似 度 以 及 NER 
等 自然 语言 处 理 的 下 游 任务 上 表现 出 更 好 的 效果 "" 。 
因此 在 MOOC 场景 下 的 探索 型 对 话 识别 任务 上 ,本 文 
将 采用 GloVe 模型 预 训练 单词 的 词 向 量 。 

局 在 利用 GloVe 模型 训练 词 向 量 之 前 ,首先 要 遍历 
整 伴 语料库 并 统计 出 大 小 为 171 x TI 的 共 现 矩阵 工 。 
基 独 短 阵 的 元 素 表示 单词 i 和 j 共同 出 现在 一 个 
禾 司 内 的 次 数 ， X= 了 ,Xi 表示 单词 i 出现 的 总 次 数 。 
二 所 单词 的 语义 很 大 程度 上 是 由 单词 的 上 下 文 所 表达 
1 单词 在 单词 i 的 上 下 文中 出 现 的 概率 p(j1li) = 


OY RR 和 j 之 间 的 语义 联系 越 紧密 。 例 如 


EN 
冰 蕉 语义 上 的 共性 要 远大 于 “固体 ”和 “水 燕 气 ”的 语 
训导， 所 以 单词 “固体 "在 “ 冰 ” 的 上 下 文中 出 现 的 概 
率 突 远 高 于 在 单词 水 蒸气 ”的 上 下 文中 出 现 概率 "" 
共 汤 逢 隆 XX 的 统计 结果 是 对 单词 之 间 语 义 关系 加 
反 国 ,Clove 模型 的 主要 目的 是 为 了 学 习 出 一 种 词 向 
量 的 编码 方式 ,使 得 利用 该 方式 编码 的 词 向 量 计算 出 
的 概率 分 布 0 尽 可 能 的 逼近 和 抢 阵 X 的 分 布 。GloVe 模 
型 的 损失 函数 /采用 交叉 焙 损 失 函 数 ,如 式 (1) 所 示 : 


TY IVI 


J=— 记 训 XlogQ; 式 (1) 
其 中 ， 
了 
exp(Cuvi) 
QO; = 式 (2) 
> ep(urv) 


式 (2) 中 ,u 表示 单词 作为 输出 时 的 词 向 量 ,， 
表示 单词 i 作为 输入 时 的 词 向 量 。 

0; 的 计算 开销 是 非常 高 的 ,因为 在 Q; 的 分 母 部 
分 ,每 一 输入 v 都 需要 和 词 表 中 的 所 有 单词 计算 一 次 
相似 度 以 保证 >,o =1。 为 了 减少 计算 概率 分 布 Q 时 
标准 化 的 昂贵 开销 ,GloVe 改 用 最 小 二 乘 损失 函数 如 
式 (3) 所 示 : 
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7= 5 5X(P, 0) 盐 (33 
其 由 访 训 站 O=0pC 

此 外 ,对 于 大 型 语料库 ,X, 过 大 可 能 导致 模型 训练 
困难 ,为 解决 这 一 问题 ,CloVe 模型 对 PP 和 0 分 别 取 对 


数 ,同时 利用 了 (x) 在 损失 函数 中 对 X; 这 一 加 权 项 进行 


映射 : 
J= 5 3/(X)log(P, -log(0,)*) 。 式 (4) 
其 中 ， 
(XA[X )” 1x < x 
a -| 式 (5) 
1 otherwise 
式 (5) 中 的 x 和 a 属于 超 参数 。 


3.2 ” 卷 积 神经 网 络 模 型 
卷 积 神经 网 络 对 于 文本 序列 表征 向 量 层次 化 的 建 
模 方 式 来 说 能 够 学 习 到 更 深层 次 特征 。 如 图 1 所 示 ， 
一 层 是 文本 序列 的 输入 层 , 在 第 二 层 卷 积 神经 网 络 
利用 we R*“ 的 卷 积 核对 句子 进行 卷 积 能 够 学 习 出 句 
子路- grams 对 应 的 特征 值 ” ,其 路- grams 表示 文 
本 序列 中 所 有 大 个 连续 单词 构成 的 序列 片段 ,每 个 序 
列 片 段 称 为 一 个 gram。 卷 积 核 学 习 出 的 左 - grams 对 
应 的 表征 向 量 实际 上 是 对 文本 序列 更 细 粒 度 的 表示 ， 
相 比 于 直接 在 句子 层面 对 文本 序列 进行 建 模 , 卷 积 神 
层 网 络 能 够 捕获 更 深层 次 的 语言 学 信息 和 有 效 特征 。 
在 最 后 一 层 卷 积 神经 网 络 会 对 grams 的 表征 向 量 
做 更 深层 次 的 聚合 ,并 最 终 得 到 文本 序列 在 句子 层次 
的 表示 。 


图 1 卷 积 神经 网 络 特征 学 习 原 理 图 


探索 型 对 话 自动 识别 模型 的 结构 见 图 2。 经 数据 
rnd 之 后 得 到 CNN 模型 
的 输入 窍 阵 Me R*。 其 中 表示 对 话 中 单词 的 个 
数 ,d 表示 词 向 量 的 维度 ,WM 表示 单词 i 对 应 的 词 向 量 。 


上 


C Xijv 合 作 其 有 于 || 
董 庆 兴 ,， 李 华 阳 ， 曹 高 逻 ， 等 . 基于 深度 学 习 的 MOOC 论坛 探索 型 对 话 识 别 方法 研究 [本 ]. 国 书 人 bin 必 必 合 拓 期 到 


租 人 层 之 后 的 眷 积 - 池 化 层 是 整个 CNN 模型 的 核心 ， 
为 了 使 模型 更 好 地 学 习 文本 特征 ,本 文采 用 了 三 个 卷 
积 核 大 小 不 同 的 卷 积 池 化 层 ,其 详细 结构 见 图 3。 


数据 预 处 理 


词 嵌 人 层 


卷 积 池 化 层 2 卷 积 池 化 层 3 


非 探索 型 对 话 


基于 卷 积 神经 网 络 的 探索 型 对 话 自动 识别 模型 


> | | 
Se 卷 积 核 大 小 为 kxd 最 大 池 化 层 核 大 小 为 (n-k+1) x 1 
图 3 卷 积 池 化 层 结构 


图 3 中 , 卷 积 - 池 化 层 主要 由 两 部 分 组 成 : 卷 积 层 
和 铀 化 层 。 对 于 We R* 的 卷 积 核 ,经 卷 积 操作 得 到 
新 的 特征 6: 


c=f(w* Mi +b) 式 (6) 
其 中 ,2 为 偏差 项 ,函数 /为 非 线 性 激活 函数 ,例如 
sigmoid 函数 。c; 可 以 理解 为 对 输入 文本 中 单词 i 到 ;i 
+k-1 所 组 成 词组 的 抽象 表示 。 卷 积 核 对 输入 矩阵 
也 卷 积 结 束 之 后 得 到 c=[c,cs,…,c, yn] eR"""。 
考虑 到 不 同 卷 积 核 卷 积 得 到 的 特征 向 量 。 的 维度 
是 不 同 的 ,而 后 续 层 的 输入 维度 又 必须 是 固定 的 ,所 以 
我 们 需要 对 。 的 维度 重新 进行 调整 。 最 大 池 化 ( max 
pooling) 是 一 种 流行 的 解决 方案 ,将 ce R'““ 输 入 最 大 
池 化 层 将 得 到 c=max(c)。 其 中 ceR, 这 一 方面 固定 
了 特征 向 量 的 维度 , 男 一 方面 又 保留 最 重要 的 特征 。 
所 有 卷 积 - 池 化 层 的 输出 特征 的 维度 都 相同 ,这 
些 特征 拼接 成 的 特征 向 量 将 输入 全 连接 层 。 为 了 防止 


模型 过 拟 合 ,在 模型 训练 的 时 候 会 对 全 连接 层 进 行 
dropout' ”处理 ,然后 再 使 用 softmax 函数 对 全 连接 层 的 
输出 进行 预测 。 为 了 提高 模型 的 泛 化 能 力 ,模型 的 损 
失 函 数 在 使 用 交叉 粹 损失 函数 的 基础 上 ,加 入 了 全 连 
接 层 权重 的 4 正则 项 ,然后 利用 Adam 方法 ”对 损失 
函数 进行 优化 。 
4 研究 设计 

学 堂 在 线 这 一 中 文 MOOC 平台 上 开设 的 《心理 学 
概论 课程 》 由 于 参与 人 数 众多 ,并 且 课 程 论 坛 的 对 话 多 
以 汉语 文本 描述 为 主 ,成 为 本 文 实验 数据 获取 的 首选 
目标 。 本 实验 数据 集 由 PySpider 网 络 怜 虫 框架 在 该 课 
程 2015 年 春 和 2016 年 春 的 课程 论坛 上 抓 取 的 相关 用 
户 数据 (用 户 ID 等 ) 和 发 帖 数据 (标题 .时间 内 容 、 回 
复 等 ) 构成。 两 期 课程 的 数据 概况 见 表 1 ,2015 年 春 和 
2016 年 春 课程 报名 人 数 分 别 为 31 680 人 和 23 372 人 ， 
报名 人 数 下 降 非 常 明 显 。 此 外 ,论坛 参与 者 数量 相 较 
于 课程 报名 人 数 比 重 较 小 ,两 期 课程 论坛 参与 人 数 分 
别 为 1 002 人 和 274 人 。 论坛 中 的 文本 对 话 由 用 户 发 
帖 以 及 用 户 的 互动 回复 两 部 分 构成 ,其 中 用 户 发 帖 数 
量 分 别 为 1029 个 和 221 个 ,用 户 回复 数量 约 为 发 帖 数 
量 的 3 倍 ,分 别 为 3 165 个 和 788 个 。 数 据 中 的 探索 型 
对 话 由 华中 师范 大 学 教育 大 数据 应 用 技术 国家 工程 实 
验 室 师 生 手工 标注 完成 ,数量 分 别 为 344 个 和 62 个 ， 
分 别 占 该 年 课程 论坛 中 所 有 对 话 的 1/3 左右 。 可 以 看 
出 探索 型 对 话 在 MOOC 论坛 中 数量 较 少 ,这 一 特点 加 
大 了 探索 型 对 话 的 检索 难度 。 总 体 上 看 ,对 比 2015 年 
和 2016 年 两 期 课程 在 各 项 数据 上 均 有 明显 下 降 , 由 于 
2016 年 论坛 数据 过 于 稀少 ,本 文 主要 以 2015 年 数据 集 
为 基础 进行 后 续 分 析 和 实验 ,标注 后 的 数据 截屏 见 图 4。 

表 1 两 期 《心理 学 概论 ) 课 程 数 据 概况 


课程 时 间 ”报名 人 数 ”论坛 参与 人 数 对 话 数量 ” 回复 量 《探索 型 对 话 
2015 年 春 31 680 1 002 1 029 3 165 344 
2016 年 春 23 3712 274 221 788 62 

ID 探索 型 对 话 标题 内 容 

54f669a8f605ab098e001d71 新 生 如 何 学 好 心理 学 ? 1、 心 理学 可 以 作为 一 种 兴趣 ， 但 是 1 
54f70e8bf605ab58bd0020fd 为 什么 只 做 出 纳 员 的 概率 比较 高 啊 ? 你 们 看 啊 ， 根 据 选项 ， 我 们 可 以 这 村 


54f677d1f605abdf61001dd0 


1 

1 

1 关于 心态 ， 学 习 的 心态 。 
54f66c27f605ab03c7001d7e 0 

0 

0 


“分 "" 别 看 了 国内 与 国外 的 两 本 心理 * 
请 教 上 课 的 时 间 安排 请 教 上 课 的 具体 时 间 安 排 

讲义 怎么 下 载 啊 ? 搜索 云 盘 ， 显 示 已 经 不 在 了 。 
课程 讲义 没 法 下 载 ， 请 更 新 下 载 链接 如 题 


54f670e9459f08b862001dfa 
54f674ee459f086fe4001e17 


4 《心理 学 概论 》 论 坛 数据 标注 样 例 


2015 年 课程 中 探索 型 对 话 在 24 小 时 内 的 发 帖 分 
布 见 图 5。 在 1 点 到 15 点 之 间 , 除 了 13 点 和 14 点 出 
现 明显 波峰 之 外 ,探索 型 对 话 的 发 布 整体 比较 均匀 。 
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图 6 绘制 的 是 探索 型 对 话 和 非 探 索 型 对 话 随 着 课程 不 
断 推进 的 发 布 数量 变化 趋势 ,从 中 可 以 看 出 ,从 课程 开 
始 到 课程 第 80 天 左右 ,探索 型 对 话 和 非 探 索 型 对 话 的 
变化 趋势 相近 ,但 是 探索 型 对 话 数量 相对 较 少 ;在 课程 
第 80 天 之 后 ,探索 型 对 话 基本 消失 ,但 是 非 探 索 型 对 


对 话 数量 
S 


15 

: | 上 | | 

E 

0 国 Ee. | 
中 


话 却 出 现 了 一 次 波峰 ,并 且 一 直到 课程 第 140 天 左右 
依旧 有 对 话 发 布 ,这 些 对 话 大 多 在 询问 考试 成 绩 等 问 
题 ,与 课程 内 容 无 关 。 综 合 上 述 分 析 ,探索 型 对 话 确实 
存在 数量 较 少 ,发 布 时 间 比 较 分 散 等 规律 ,这 也 从 侧面 
反映 了 实现 探索 型 对 话 自 动 识 别 的 必要 性 。 


里 探索 型 对 话 


对 话 发 布 时 间 (小 时 ) 


图 5 探索 型 对 话 发 帖 时 间 的 24 小 时 分 布 图 


对 话 数 量 
名 


非 探索 型 对 话 
“探索 型 对 话 


对 话 发 布 时 间 ( 距离 课程 开始 日 期 的 天 数 ) 


图 6 探索 型 对 话 和 非 探索 型 对 话 的 发 布 数量 变化 趋势 图 


| : ;实验 主要 使 用 2015 年 春 《 心 理学 概论 ) 课 程 的 数 
据 集 , 该 数据 集 的 详细 信息 见 表 1, 其 中 探索 型 对 话 的 
数 竖 约 为 非 探 索 型 对 话 数 量 的 ,不 同 种 类 样本 数量 的 
不 购 衡 将 导致 模型 更 倾向 于 将 对 话 识别 为 非 探 索 型 对 
话 。 为 了 平衡 两 类 对 话 的 数量 ,本 研究 随机 选择 出 一 
些 探 索 型 对 话 进 行 复制 ,直到 两 类 对 话 数 量 相等 。 平 
衡 数 据 集 之 后 ,需要 对 文本 进行 分 词 ,并 构建 出 数据 集 
的 单词 表 , 然 后 将 文本 中 的 单词 转换 成 对 应 的 索引 。 
训练 时 的 参数 如 表 2 所 示 ,通过 在 整个 数据 集中 随机 
挑选 90% 得 到 训练 集 , 剩 下 的 10% 作为 测试 集 。 

实验 的 总 体 整 体 流 程 设 计 见 图 7, 其 中 文本 分 类 方 
法 主要 包括 卷 积 神经 网 络 方法 和 传统 文本 分 类 方法 两 
大 类 。 首 先 ,本 文 将 探究 GloVe 方法 预 训练 的 词 向 量 以 
及 随机 初始 化 的 词 向 量 对 卷 积 神经 网 络 最 终 分 类 效果 
的 影响 。 其 次 ,为 了 对 比 卷 积 神经 网 络 与 传统 文本 分 类 
方法 在 探索 型 对 话 自动 识别 任务 上 的 效果 ,本 文选 取 了 
朴素 贝 叶 斯 模型 ( Naive Bayes, NB) .逻辑 斯 详 回 归 模型 
(Logistic Regression, LR ) .决策 树 模 型 ( Decision Tree， 
DT) 以 及 随机 森林 模型 ( Random Forest RF) 这 些 传统 文 


< 
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本 分 类 中 常用 的 方法 与 图 2 所 示 模 型 进行 比较 。 
表 2 模型 参数 


参数 说 明 
共 现 矩阵 窗 宽 GloVe 模型 统计 矩阵 式 时 的 窗 宽 设置 为 1 
Way 100 
Qa ye 
卷 积 核 宽度 CNN 模型 卷 积 核 的 宽度 (h) 设 置 为 3, 4, 5 
词 向 量 维度 词 向 量 维度 设置 为 128 
Dropout Dropout 值 设 为 0.5 
正则 项 系数 /> 正则 项 的 系数 设 为 0.1 


优化 方法 人 
Mini-batch 的 大 小 设 为 64 


Batch -size 


对 于 分 类 结果 ,本 文采 用 文本 分 类 领域 普遍 使 用 
的 准确 率 ( accuracy ) .精确 率 (precision ) 召回 率 (re- 
call) 以 及 Fl 值 ””。 具 体 的 计算 公式 如 下 : 


TP+TN 

UAY = Tp 4 FP HFN+ TN 式 (7) 
ee TP i 

Precision = Fp 4 Fp 式 (8) 


1 企 甘 日 车 || 
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MOOC 论坛 语 料 


文本 分 类 


DT 
传统 方法 

LR 

LR 


随机 初 苯 代 
卷 积 神经 | 卷 积 层 
网 络 GloVe 初始 伦 
卷 积 层 


探索 型 对 话 非 探索 型 对 话 


图 7 MOOC 论坛 探索 型 对 话 自动 识别 流程 图 


TP 


TP+FN 2 


recall = 


2 precision x recall 


Fl 


式 (10) 


其 绅 ,7P .FP ,TN .FN 分 别 表示 探索 型 对 话 被 识别 为 探 
(全 、 并 yp 口上 、 > 
壳 型 对 话 的 个 数 、 非 探索 型 对 话 被 识别 为 探索 型 对 话 


的 合 数 , 非 探索 型 对 话 被 识别 为 非 探索 型 对 话 的 个 数 
忆 肌 探索 型 对 话 被 识别 为 非 探索 型 对 话 的 个 数 。 


5 ”结果 分 析 


词 嵌 入 层 对 分 类 结果 影响 分 析 
沁 词 嵌入 层 包 含 了 模型 输入 所 需 的 全 部 特征 ,是 整 
代 弹 类 器 的 重要 一 环 , 探 究 词 嵌 入 层 不 同 的 初始 化 和 
训 踪 方法 对 最 终 的 探索 型 对 话 识别 结果 的 影响 具有 重 
要 章 义 。 对 于 表 3 中 的 初始 化 方法 , 预 训练 的 词 向 量 
是 输 前 文 提 到 的 利用 GloVe 方法 预 训练 得 到 的 结果 ， 
均 每 分 布 随机 初始 化 是 指 利用 在 [ -1, 1] 区 间 内 的 
均 河 分布 对 词 谋 入 层 进行 随机 初始 化 ;对 于 表 3 中 第 
二 列 ,在 训练 过 程 中 是 否 继续 调整 词 能 入 层 是 指 在 分 
类 器 训练 时 是 否 计算 词 能 人 层 参数 的 梯度 并 对 其 进行 
优化 。 

在 保证 卷 积 神经 网 络 模型 参数 固定 的 情况 下 , 仅 
改变 词 谋 入 层 的 设置 ,得 到 了 如 表 3 所 示 的 实验 结果 。 
实验 结果 表明 GloVe 模型 预 训练 的 词 向 量 是 有 效 的 并 
且 在 训练 过 程 中 继续 调整 词 符 入 层 有 助 于 提升 模型 的 
分 类 效果 。 首 先 ,从 表 3 的 第 一 行 可 以 看 出 , 仅 使 用 预 
训练 的 词 向 量 模型 已 经 取得 了 非常 好 的 效果 。 虽 然 对 
比 表 中 的 后 两 行 ,在 不 断 调整 词 嵌 入 层 的 前 提 下 利用 
预 训练 的 词 向 量 初始 化 相 较 于 随机 初始 化 的 模型 在 准 
前 率 和 精确 率 上 只 有 微小 提升 ,但 这 并 不 意味 着 模型 
中 独立 存在 的 词 向 量 预 训练 过 程 是 没有 意义 的 。 因 为 
在 大 部 分 研究 中 , 词 向 量 往往 只 是 具体 任务 的 一 个 副 
产物 ,目前 许多 针对 如 何 训练 词 向 量 的 研究 实际 上 是 


precision + recall 


在 寻找 能 够 高 效 、 快 速 地 学 习 出 较 好 地 表达 了 单词 语 
义 的 词 向 量 的 方法 ” 。 而 在 本 文 所 提出 的 模型 中 ,能 
更 方便 地 学 习 出 效果 较 好 的 词 向 量 ,将 词 向 量 学 习 的 
过 程 与 最 终 分 类 器 的 训练 过 程 分 离 , 可 以 减少 模型 的 
训练 负担 ,这 在 大 规模 任务 上 具有 重要 意义 。 其 次 ,对 
比 表 3 中 的 前 两 行 可 以 发 现 ,在 训练 的 过 程 中 继续 调 
整 词 钥 入 层 使 得 模型 的 准确 率 、 召 回 率 以 及 让 值 均 得 
到 了 提高 ,虽然 精确 率 有 所 下 降 , 但 是 综合 来 看 继续 调 
整 词 误 入 层 确实 有 助 于 提升 模型 的 整体 效果 。 
表 3 ， 词 歼 入 层 不 同 初始 化 和 训练 方法 下 的 模型 分 类 效果 


初始 化 方法 。 准确 率 ”精确 率 ”召回 率 FL 值 
预 训练 的 词 向 量 否 0.94 0.93 0.96 0.94 
预 训 练 的 词 向 量 是 0.95 0.92 0.99 0.95 

均匀 分 布 随机 初始 化 是 0.94 0.91 0.99 0.95 


5.2 与 传统 文本 分 类 模型 的 对 比分 析 

为 了 对 比 本 文 提出 的 模型 与 传统 文本 分 类 模型 在 
MOOC 探索 型 对 话 自动 识别 任务 上 的 效果 ,如 图 6 所 
示 本 文选 取 了 在 文本 分 类 领域 比较 经 典 的 几 种 模型 进 
行 了 比较 。 其 中 传统 文本 分 类 方法 将 采用 情报 学 以 及 
自然 语言 处 理 领 域 常用 的 fjidf 值 作为 特征 。 

最 终 的 测试 结果 见 表 4, 第 一 行 是 本 文 提 出 的 模 
型 (利用 预 训练 的 词 向 量 初始 化 词 舱 入 层 , 并 且 在 分 类 
器 训练 过 程 中 不 进行 调整 ,如 表 3 第 一 行 所 示 ) ,其 后 
是 传统 文本 分 类 模型 的 测试 结果 。 从 实验 结果 可 以 看 
出 ,本 文 所 提出 的 模型 相 较 于 传统 的 文本 分 类 模型 有 
较为 明显 的 优势 ,各 项 评测 结果 均 得 到 了 最 好 的 效果 。 
此 外 ,逻辑 斯 详 回 归 模型 的 准确 率 、 召 回 率 以 及 有 值 
在 传统 模型 中 取得 了 最 好 的 结果 ,尤其 是 召回 率 相 较 
于 其 他 几 项 评测 标准 与 本 文 提 出 的 模型 差距 最 小 。 面 
对 文本 这 类 非 结构 化 的 数据 ,特别 是 在 探索 型 对 话 的 
识别 分 析 任务 上 , 卷 积 神经 网 络 相 较 于 普通 文本 分 类 
模型 取得 了 巨大 优势 , 且 在 保证 效果 的 同时 , 卷 积 神经 
网 络 模型 不 需要 构造 复杂 的 特征 就 能 够 自动 对 数据 中 
深层 次 的 特征 进行 学 习 。 

表 4 ”本 文 模型 与 传统 文本 分 类 模型 的 实验 结果 


模型 准确 率 精准 率 召回 率 Fl 值 
本 文 模型 0.94 0.93 0.96 0.94 
NB 0.88 0.87 0.88 0.88 
LR 0.89 0.86 0.93 0.89 
DT 0.87 0.83 0.93 0.88 
RF 0.88 0. 85 0.91 0.88 
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5.3 ”探索 型 对 话 自动 识别 应 用 分 析 

从 上 述 实验 结果 可 以 看 出 ,在 探索 型 对 话 自动 识 
别 任 务 中 本 文 提出 的 模型 在 Fl 值 以 及 召回 率 上 取得 
了 较 好 结果 ,在 MOOC 论坛 场景 下 具有 较 高 的 实用 性 。 
探索 型 对 话 自 动 识别 模型 作为 帮助 教师 甄别 探索 型 对 
话 和 非 探索 型 对 话 的 有 力 工具 ,模型 的 Fl 值 越 高 对 于 
减轻 教师 管理 论坛 压力 的 帮助 就 越 大 。 同 时 考虑 到 探 
索 型 对 话 在 MOOC 论坛 中 的 重要 作用 ,探索 型 对 话 被 
识别 为 非 探 索 型 对 话 相 较 于 非 探索 型 对 话 误 识 别 为 探 
索 型 对 话 对 于 整个 虚拟 社区 的 知识 交流 与 共享 具有 更 
大 的 负面 影响 ,因此 较 高 的 召回 率 在 真正 的 应 用 中 具 
有 重要 意义 。 

此 外 ,MOOC 论坛 课程 覆盖 了 较 多 领域 ,针对 不 同 
领域 训练 分 类 模型 的 时 候 较 低 的 学 习 成 本 在 大 规模 应 
用 场景 中 具有 重要 意义 。 本 文 提出 的 模型 不 需要 像 传 

方法 一 样 人 工 设置 复杂 的 特征 ,以 GloVe 方法 学 习 


| 

出 的 单词 表征 向 量 为 基础 ,再 结合 卷 积 神经 网 络 较 强 
的 特征 自学 习 能 力 , 本 文 模型 只 需要 将 原始 文本 作为 
暂 亲 较 小 的 学 习 成 本 就 可 以 取得 较 好 的 自动 识别 妆 


外 ~ 


J 本 文 利 用 GolVe 模型 训练 了 对 语义 有 较 好 理解 的 
词 移 量 ,并 结合 能 够 自动 学 习 文 本 更 深层 次 特征 的 卷 
邯 经 网 络 实现 了 探索 型 对 话 的 自动 识别 ,改善 了 传 
统 吃 本 分 类 方法 对 语义 编码 能 力 不 足 并 且 需 要 构造 复 
杂 竺 征 的 问题 。 从 实验 结果 上 看 ,该 模型 一 方面 能 
准 圭 学 习 出 包含 了 单词 深层 次 语言 学 信息 的 词 向 量 ， 
并 牌 在 分 类 器 训练 过 程 中 不 断 调整 词 向 量 能 够 提高 模 
型 效果 ; 另 一 方面 , 相 比 于 传统 的 文本 分 类 模型 在 准确 
率 .精确 率 .召回 率 以 及 Fl 值 上 表现 出 明显 优势 。 随 
着 MOOC 在 全 世界 范围 内 的 不 断 发 展 ,MOOC 论坛 中 
具有 较 高 知识 密度 的 探索 型 对 话 将 会 展现 出 越 来 越 大 
的 价值 ,自动 识别 探索 型 对 话 对 于 帮助 教师 减轻 论坛 
管理 负担 ,激励 学 生 参 与 知识 交流 ,乃至 后 续 挖 所 探索 
型 对 话 的 巨大 价值 具有 重要 意义 。 

本 文 研究 也 存在 一 些 局 限 和 不 足 , 对 于 探索 型 对 
话 仅仅 对 其 进行 了 识别 ,还 缺少 更 进一步 的 工作 ,如 针 
对 探索 型 对 话 中 的 相关 知识 点 为 学 生 进行 推荐 ,针对 
话题 重复 率 较 高 的 非 探 索 型 对 话 可 以 建立 相应 的 自动 
问答 系统 等 ,这 些 工作 可 以 在 今后 的 研究 中 考虑 。 
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Abstract: [Purpose/significance| Massive Open Online Course (MOOC) forum is an important source to acquire 


user review data. Automatically detecting exploratory dialogues with high knowledge density from large amounts of unla- 


beled data and mining its potential value has a significant impact on the improvement of teaching quality and students’” 


mastery of knowledge. [Method/process| We proposed a new auto -detecting model based on deep learning, which firstly 


uses GloVe algorithm to train word embedding to reinforce semantic understanding for texts and then adopts Convolutional 


Neural Network (CNN ) to automatically learn text features and make classifications on exploratory dialogues. An empirical 


and comparative study was done on the annotated dataset from the online course Introduction to Psychology on the platform 


of Xuetang. [ Result/conclusion | Experiment result shows that using the word embedding pretrained by GloVe and fine 


tune it while training can improve the performance of our model. Our model gets the F] score of 0.94, which is greatly im- 


proved compared with Naive Bayes model (0.88), Logistic Regression model (0. 89 ) Decision Tree model (0.88) and 


Random Forest model (0.88 ) and exhibits great practicality with low learning costs. 
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